查看原文
其他

【Python机器学习】系列之机器学习基础

2016-03-25 西西 量化投资与机器学习


谢谢大家的支持!现在该公众号开通了评论留言功能,你们对每篇推文的留言与问题,可以通过【写评论】给圈主留言,圈主会及时回复您的留言。

查看之前文章请点击右上角,关注并且查看历史消息,谢谢您的支持!


  • 自2007年发布以来,scikit-learn已经成为最给力的Python机器学习库(library)了。scikit-learn支持的机器学习算法包括分类,回归,降维和聚类。还有一些特征提取(extracting features)、数据处理(processing data)和模型评估(evaluating models)的模块。作为Scipy库的扩展,scikit-learn也是建立在Python的NumPy和matplotlib库基础之上。


  • NumPy可以让Python支持大量多维矩阵数据的高效操作,matplotlib提供了可视化工具,SciPy带有许多科学计算的模型。scikit-learn文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。开发者用scikit-learn实验不同的算法,只要几行代码就可以搞定。


  • scikit-learn包括许多知名的机器学习算法的实现,包括LIBSVM和LIBLINEAR。还封装了其他的Python库,如自然语言处理的NLTK库。另外,scikit-learn内置了大量数据集,允许开发者集中于算法设计,节省获取和整理数据集的时间。scikit-learn可以不受任何限制,遵从自由的BSD授权。许多scikit-learn的算法都可以快速执行而且可扩展,除了海量数据集以外。


  • 最后,scikit-learn稳定性很好,大部分代码都可以通过Python的自动化测试(mock,nose等)。


将机器学习定义成一种通过学习经验改善工作效果的程序研究与设计过程。其他章节都以这个定义为基础,后面每一章里介绍的机器学习模型都是按照这个思路解决任务,评估效果。


第2章  线性回归 

介绍线性回归模型,一种解释变量和模型参数与连续的响应变量相关的模型。本章介绍成本函数的定义,通过最小二乘法求解模型参数获得最优模型。


第3章  特征提取与处理 

介绍了常见的机器学习对象如文本,图像与分类变量的特征提取与处理方法。


第4章  从线性回归到逻辑回归 

介绍广义线性回归模型如何解决分类任务。将逻辑回归模型与特征提取技术结合起
来实现一个垃圾短信分类器。


5章  决策树——非线性回归与分类

介绍了一种回归和分类的非线性模型——决策树。用决策树集成方法实现了一个网页广告图片屏蔽器。


6章  K-Means聚类 

介绍非监督学习的K-Means聚类算法,并与逻辑回归组合起来实现一个照片分类器。


7章  用PCA降维 

,介绍另一种非监督学习任务——降维。我们用主成分分析实现高维数据的可视化,建立一个脸部识别器。


第8章  感知器

介绍一种实时的,二元分类器——感知器。后面两章都是针对感知器的缺点发展起来的。


第9章  从感知器到支持向量机

介绍支持向量机,是一种有效的非线性回归与分类模型。我们用支持向量机识别街景照片中的字母。


第10章  从感知器到人工神经网络 

介绍了人工神经网络,是一种强大的有效的非线性回归与分类模型。我们用人工神经网络识别手写数字。


过往文章

1.【机器学习课程】深度学习与神经网络系列之绪论介绍

2.大数据之微信公众号深度量化研究

3.多因子策略系列(一)——因子回溯测试的总体框架

4.Python机器学习:数据拟合与广义线性回归

5.【分级基金】之分级A的隐含收益率研究分析

6.Python VS Matlab----给我一个理由先

7.【干货】量化投资国内外很棒的论坛网站

8.朴素贝叶斯模型(NBM)详解与在Matlab和Python里的具体应用


量化投资与机器学习

知识、能力、深度、专业

勤奋、天赋、耐得住寂寞


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存